# 1 需求分析
# 2 寻找网址
# 3 下载网站的返回内容（request）
# 4 通过返回信息找到需要爬取的数据内容(正则表达式re,XPATH-lxml)
# 5 存储找到的数据内容(mysql)
import  requests
url = 'https://search.bilibili.com/all?keyword=PYTHON%E7%88%AC%E5%8F%96&from_source=nav_suggest&spm_id_from=333.851.b_696e7465726e6174696f6e616c486561646572.15'
# 接收url并处理返回信息
# response = requests.get(url)
# # 打印页面html代码
# # 处理乱码方式1 看乱码的页面编码方式是什么？浏览器右键-》检查，
# # meta中的charest='utf-8',然后写response.encoding='utf-8'
# print(response.text)
# 4 在请求头信息中重要的三个信息
# 1 User-Agent - 身份是什么
# 2 Referer - 跳转网页是什么
# 3 Cookie - 存储信息
# 添加请求头信息，字典的方式写入请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0',
}
response = requests.get(url, headers=headers)
# 保存html信息到文件,wb指的是二进制文件格式
with open('hahha.html', 'wb') as f:
    f.write(response.content)
# 今天开始gitee学习